SparkDoris doris-spark - 程序员宅基地

Java-Spark系列1-spark概述

大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图，当前的一个大数据技术栈: 如上所示: ...

Java-Spark系列8-Spark streaming整合Kafka

标签： Spark Streaming Spark + kafka Spark准实时

Spark streaming整合Kafka概述1.1 Maven配置1.2 创建Direct Stream1.3 定位策略1.4 消费者的策略1.5 创建RDD1.6 获得Offsets1.7 存储 Offsets1.8 检查点1.9 Kafka自身1.10 自身数据存储二.Spark Streaming整合Kafka...

starrocks-spark-connector

标签： spark starrocks

Spark Starrocks 批量写入，完美适配spark3.12

Spark集群运行xgboost4j-spark总结

标签： spark xgboost4j

最近搞了2个周的xgboost4j-spark，整个人都不好了！太难了！下面说说自己遇到的主要问题吧，希望对刚开始使用xgboost4j-spark的朋友有一定的帮助。主要问题： 1.先去服务器上看看要使用的spark集群是啥版本的，...

mongo-spark-connector笔记

记一次神奇的mongo-spark-connector

spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题

需求：利用pmml(预测模型标记语言)来实现跨平台的机器学习模型部署。 pmml简介：参考链接1 如何将模型生成pmml格式：参考链接3 1、成功的写法：将数据的各种transform和模型全部都放...import org.apache.spark...

apache-doris-spark-connector-2.3_2.11-1.0.1

标签： doris-spark SparkDoris

Spark Doris Connector（apache-doris-spark-connector-2.3_2.11-1.0.1-incubating-src.tar.gz） Spark Doris Connector Version：1.0.1 Spark Version：2.x Scala Version：2.11 Apache Doris是一个现代MPP分析...

平台搭建---Spark提交应用程序---Spark Submit提交应用程序及yarn

标签： spark 集群应用

本部分来源，也可以到spark官网...spark-submit --class --master --jars Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序，它通过统一接口使用Spark所支持的所有集群管理器，因此无需特殊配置每一个

hadoop组件---spark理论----spark on k8s模式的三种方式全面了解

标签： spark k8s operator

hadoop组件—spark----全面了解spark以及与hadoop的区别是时候考虑让你的 Spark 跑在K8s 上了 spark on k8s的优势–为什么要把Spark部署在k8s上大数据和云计算一直分属两个不同的领域。大数据主要关注怎么将数据...

图解大数据 | 大数据分析挖掘-Spark初步

标签： spark big data 数据分析

Apache Spark是目前最主流和常用的分布式开源处理系统，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。

Java-Spark系列6-Spark SQL编程实战

标签： SparkSQL实战 DataFrame API Spark SQL

文章目录一.Spark DataFrame概述1.1 创建DataFrame1.1.1 通过json文件创建DataFrame1.1.2 通过CSV文件创建DataFrame1.1.3 通过hive table创建DataFrame1.1.4 通过jdbc数据源创建DataFrame二.Spark SQL实战2.1 ...

Java-Spark系列5-Spark SQL介绍

标签： SparkSQL Spark操作MySQL Spark操作Hive

文章目录一.Spark SQL的概述1.1 Spark SQL 来源1.2 从代码看Spark SQL的特点1.3 从代码运行速度看来看Spark SQL二.Spark SQL数据抽象2.1 DataFrame2.2 Dataset三.Spark SQL 操作数据库3.1 Spark SQL操作Hive数据库...

Java-Spark系列4-spark内核概述

标签： spark java big data

文章目录一.Spark核心组件1.1 Cluster Manager(Master,ResourceManager)1.2 Worker(worker,NodeManager)1.3 Driver1.4 Executor1.5 Application二.Spark on Yarn3.1 Yarn的基本架构3.2 Spark on Yarn3.2.1 YARN-...

计算机专业基础理论电子书合集09----spark

标签：大数据云计算 spark

计算机专业基础理论电子书合集09----spark

Java-Spark系列7-Spark streaming介绍

标签： spark Spark Streaming Spark准实时

文章目录一.Spark streaming介绍1.1 Spark streaming简介1.2 Spark 与storm区别1.3 一个简单的例子二.Spark Streaming的组件介绍2.1 Streaming Context2.2 Dstream(离散流)2.1 Receiver2.2 数据源2.3 可靠性2.4 ...

Java-Spark系列10-Spark性能调优概述

标签： Spark优化 Spark数据倾斜 Spark参数调整

文章目录一.Spark 性能优化概述二.运行环境优化2.1 数据本地性2.2 数据存储格式三.RDD算子优化3.1 尽可能复用同一个RDD3.2 对多次使用的RDD进行持久化四.参数微调五.数据倾斜六. Spark常用的调优参数6.1 在内存中...

第3.8章：StarRocks数据导入--Spark Load

标签： StarRocks spark hadoop

Spark Load是通过外部的Spark资源实现对导入数据的预处理，进而提高StarRocks大数据量的导入性能，同时也可以节省StarRocks集群的计算资源。Spark Load的操作本身不复杂，但涉及的技术栈比较多，架构相对较重，所以...

【Spark版本更新】--Spark-3.2.0 发布说明

[SPARK-26164] - [SQL] 允许 FileFormatWriter 写入多个分区/存储桶而无需排序 [SPARK-26341] - 在 Stages 选项卡中公开阶段级别的执行程序内存指标 [SPARK-26346] - 将镶木地板升级到 1.11.1 [SPARK-26...

Java-Spark系列9-Spark 运维管理

标签： Spark运维 Spark CDH

备注: Cloudera 6.3.1 Spark 2.4 文章目录一.Spark安装目录结构二.Spark日志目录结构三.维护命令与参数参考: 一.Spark安装目录结构 ...可执行文件，包含spark-submit、spark-shell etc 配置文件 lib、lib64 Sp

使用xgboost4j-spark进行模型训练

xgboost作为数据挖掘类比赛的必备算法，之前参加jdata比赛时，也学着使用了下xgboost4j-spark，觉得很好用，既支持分布式，同时效果和速度都比spark自带的gbdt,rf算法效果要好。模型代码包含: -train：训练 -train_...

[Spark版本更新]--Spark-2.4.0 发布说明

标签： spark spark-2.4.0

[ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块&gt; 2GB作为流 [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测 [ SPARK-11239 ] - 用于ML线性...

Spark学习笔记[3]-Spark安装部署

标签： spark big data

Spark学习笔记[3]-Spark安装部署 1、下载对应版本的spark 官网我始终都下不下来，推荐一个国内的镜像： https://mirrors.tuna.tsinghua.edu.cn/apache/spark 2、概述 2-1 安装模式虽然Spark是一个分布式...

利用spark读取phoenix(phoenix-spark)

标签： spark phoenix phoenix-spark

为何不是jdbc访问phoenix？具体原因参照phoenix官网地址：(https://phoenix.apache.org/phoenix_spark.html) ...import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext import org.apache....

Spark开发-Spark内存溢出原因以及解决方式

标签： spark jvm java

Spark内存溢出堆内内存溢出堆外内存溢出堆内内存溢出具体说明Heap size JVM堆的设置是指java程序运行过程中JVM可以调配使用的内存空间的设置.JVM在启动的时候会自动设置Heap size的值，Heap size 的大小是Young ...

[Spark 进阶] -- Spark 如何在运行时读取 --files 添加的 README.md 文件？

标签： spark

Spark 如何在运行时读取 --files 添加的 README.md 文件？方法 1 本方法适用于 spark local 和 spark on yarn-client 。 --files 会把文件上传到 hdfs 的 .sparkStagin/applicationId 目录下，使用上面说的方法...